Sesgo de distancia de representación en modelos de recompensa
El sesgo de distancia en la pérdida BT distorsiona el aprendizaje de modelos de recompensa. NormBT lo corrige con normalización adaptativa, mejorando la precisión hasta un 5%.
El sesgo de distancia en la pérdida BT distorsiona el aprendizaje de modelos de recompensa. NormBT lo corrige con normalización adaptativa, mejorando la precisión hasta un 5%.